Во время выполнения заданий седьмого практикума я действовала в соответствии с данными инструкциями. Однако поиск протеома бактерии Burkholderia sp. MSMB122 ничего мне не дал (перешла на Advanced, выбрала в меню "Taxonomy (OC)" и внесла в окошко "burkholderia sp". Нужного штамма не обнаружила.) Поэтому для скачивания мной был выбран протеом бактерии Burkholderia sp. MSMB1835.
Таблица 1. Общая информация | ||
Характеристика | Burkholderia sp. MSMB1835 | Escherichia coli (strain K12) |
Organism ID | 1637876 | 83333 |
Proteome ID | UP000062414 | UP000000625 |
Число последовательностей | 6182 | 4306 |
Число остатков | 2032200 | 1356192 |
Таблица 2. Сравнительная процентная таблица | |||
Буква | Burkholderia sp. MSMB1835 | Escherichia coli (strain K12) | Разность процентов |
A | 13,87% | 9,51% | -4,36% |
L | 10,12% | 10,67% | 0,55% |
G | 8,45% | 7,37% | -1,08% |
V | 7,85% | 7,07% | -0,77% |
R | 7,29% | 5,51% | -1,78% |
D | 5,88% | 5,15% | -0,73% |
T | 5,49% | 5,40% | -0,09% |
P | 5,29% | 4,43% | -0,86% |
S | 5,23% | 5,80% | 0,58% |
E | 4,57% | 5,76% | 1,19% |
I | 4,44% | 6,01% | 1,57% |
F | 3,62% | 3,89% | 0,28% |
Q | 3,34% | 4,44% | 1,10% |
K | 2,75% | 4,41% | 1,65% |
N | 2,61% | 3,95% | 1,34% |
Y | 2,42% | 2,85% | 0,43% |
H | 2,31% | 2,27% | -0,04% |
M | 2,22% | 2,82% | 0,60% |
W | 1,38% | 1,53% | 0,16% |
C | 0,89% | 1,16% | 0,27% |
Программа compseq рассчитывает состав уникальных слов в последовательности. Она принимает на вход следующие параметры: файл с последовательностью, длинну уникального "слова"(это должно быть натуральное число) и имя выходного файла, в который будет записан результат. Описанные мной параметры для ввода являются обязательными. Если они не будут получены в командной строке в начале команды, то программа сама попросит ввести недостающие параметры. Выходной файл compseq включает в себя пять столбцов: само слово данной длины, сколько раз оно встречается, частоту встреч (т.е. отношение числа встреч к общему количеству слов), предполагаемая частота (т.е. частота, в которой предполагается, что все слова встречаются одинаково часто), а также отношение частоты встреч и предполагаемой частоты. В начале файла расположена информация, характеризующая входящую информацию, а в конце - строчка "Other", характеризующая нестандартные остатки, встречающиеся в последовательности. Между программами compseq и wordcount есть несколько существенных отличий: ~В выходном файле compseq указываются названия всех последовательностей из входного файла. (The input sequences). А также прописывается длина слова (Word size) и общее количество слов(Total count). ~Кроме того, worldcount выдает меньшее количество информации - только само слово и количество его встреч. При этом слова упорядочены не по алфавиту, как в compswq, а по количеству встреч, от большего к меньшему. Не смотря на, несомненно, большую информативность программы compseq, для выполнения практикума я бы выбрала программу wordcount (Собственно, ее я и использовала). Т.к. все необходимые для анализа данные были мной получены из Excel-таблицы, которую я составила, опираясь на данные выходного файла, сформированного командой wordcount. Конечно, часть из этих данных я могла бы получить с помощью compseq, но в этом не было необходимости. Однако для более быстрого и глубокого анализа больше подходит программа compseq.
© Serebrennikova Maria 2017